3D shapes have complementary abstractions from low-level geometry to part-based hierarchies to languages, which convey different levels of information. This paper presents a unified framework to translate between pairs of shape abstractions: $\textit{Text}$ $\Longleftrightarrow$ $\textit{Point Cloud}$ $\Longleftrightarrow$ $\textit{Program}$. We propose $\textbf{Neural Shape Compiler}$ to model the abstraction transformation as a conditional generation process. It converts 3D shapes of three abstract types into unified discrete shape code, transforms each shape code into code of other abstract types through the proposed $\textit{ShapeCode Transformer}$, and decodes them to output the target shape abstraction. Point Cloud code is obtained in a class-agnostic way by the proposed $\textit{Point}$VQVAE. On Text2Shape, ShapeGlot, ABO, Genre, and Program Synthetic datasets, Neural Shape Compiler shows strengths in $\textit{Text}$ $\Longrightarrow$ $\textit{Point Cloud}$, $\textit{Point Cloud}$ $\Longrightarrow$ $\textit{Text}$, $\textit{Point Cloud}$ $\Longrightarrow$ $\textit{Program}$, and Point Cloud Completion tasks. Additionally, Neural Shape Compiler benefits from jointly training on all heterogeneous data and tasks.
translated by 谷歌翻译
Deep neural networks have been successfully adopted to diverse domains including pathology classification based on medical images. However, large-scale and high-quality data to train powerful neural networks are rare in the medical domain as the labeling must be done by qualified experts. Researchers recently tackled this problem with some success by taking advantage of models pre-trained on large-scale general domain data. Specifically, researchers took contrastive image-text encoders (e.g., CLIP) and fine-tuned it with chest X-ray images and paired reports to perform zero-shot pathology classification, thus completely removing the need for pathology-annotated images to train a classification model. Existing studies, however, fine-tuned the pre-trained model with the same contrastive learning objective, and failed to exploit the multi-labeled nature of medical image-report pairs. In this paper, we propose a new fine-tuning strategy based on sentence sampling and positive-pair loss relaxation for improving the downstream zero-shot pathology classification performance, which can be applied to any pre-trained contrastive image-text encoders. Our method consistently showed dramatically improved zero-shot pathology classification performance on four different chest X-ray datasets and 3 different pre-trained models (5.77% average AUROC increase). In particular, fine-tuning CLIP with our method showed much comparable or marginally outperformed to board-certified radiologists (0.619 vs 0.625 in F1 score and 0.530 vs 0.544 in MCC) in zero-shot classification of five prominent diseases from the CheXpert dataset.
translated by 谷歌翻译
具有对比目标的训练前视觉模型已显示出令人鼓舞的结果,这些结果既可以扩展到大型未经切割的数据集,又可以传输到许多下游应用程序。以下一些作品针对提高数据效率,通过添加自学意义来提高数据效率,但是在这些作品中的单个空间上定义了对比度损失(图像文本)对比度损失和内域(图像图像)对比度损失,因此许多可行的可行性监督的组合被忽略了。为了克服这个问题,我们提出了Uniclip,这是对对比语言图像预训练的统一框架。 Uniclip将域间对和域内对的对比损失整合到一个单一的通用空间中。 Uniclip的三个关键组成部分解决了整合不同域之间对比度损失时发生的差异:(1)增强感知功能嵌入,(2)MP-NCE损失和(3)域相似性度量。 Uniclip的表现优于以前的视觉语言预训练方法,在下游任务的各种单模式和多模式上。在我们的实验中,我们表明每个组成的分支都对最终性能有很好的贡献。
translated by 谷歌翻译
图池是用于编码图中层次结构的关键操作。大多数现有的图形池方法将问题作为节点聚类任务提出,从而有效捕获图形拓扑。常规方法要求用户指定适当数量的簇作为超参数,然后假设所有输入图共享相同数量的簇。但是,在簇数可以变化的归纳设置中,该模型应能够表示其池层中的这种变化,以学习合适的簇。因此,我们提出了GMPool,这是一种新型可区分的图形池体系结构,该体系结构会根据输入数据自动确定适当数量的簇数。主要直觉涉及定义为合并操作员的二次形式的分组矩阵,该矩阵诱导了节点成对组合的二进制分类概率的使用。 GMPool首先计算分组矩阵,然后将其分解。对分子财产预测任务的广泛评估表明,我们的方法表现优于常规方法。
translated by 谷歌翻译
Meta强化学习(META-RL)旨在学习一项政策,同时并迅速适应新任务。它需要大量从培训任务中汲取的数据,以推断任务之间共享的共同结构。如果没有沉重的奖励工程,长期任务中的稀疏奖励加剧了元RL样品效率的问题。 Meta-RL中的另一个挑战是任务之间难度级别的差异,这可能会导致一个简单的任务主导共享策略的学习,从而排除政策适应新任务。这项工作介绍了一个新颖的目标功能,可以在培训任务中学习动作翻译。从理论上讲,我们可以验证带有操作转换器的传输策略的值可以接近源策略的值和我们的目标函数(大约)上限的值差。我们建议将动作转换器与基于上下文的元元算法相结合,以更好地收集数据,并在元训练期间更有效地探索。我们的方法从经验上提高了稀疏奖励任务上元RL算法的样本效率和性能。
translated by 谷歌翻译
我们表明,没有图形特异性修改的标准变压器可以在理论和实践中都带来图形学习的有希望的结果。鉴于图,我们只是将所有节点和边缘视为独立的令牌,用令牌嵌入增强它们,然后将它们馈入变压器。有了适当的令牌嵌入选择,我们证明这种方法在理论上至少与不变的图形网络(2-ign)一样表达,由等效线性层组成,它已经比所有消息传播的图形神经网络(GNN)更具表现力)。当在大规模图数据集(PCQM4MV2)上接受训练时,与具有精致的图形特异性电感偏置相比,与GNN基准相比,与GNN基准相比,与GNN基准相比,与GNN基准相比,我们创造的令牌化图形变压器(Tokengt)取得了明显更好的结果。我们的实施可从https://github.com/jw9730/tokengt获得。
translated by 谷歌翻译
准确的术中诊断对于在脑肿瘤手术期间提供安全有效的护理至关重要。我们的护理标准诊断方法是时间,资源和劳动密集型,限制了获得最佳手术治疗的机会。为了解决这些局限性,我们提出了一种替代工作流程,该工作流程结合了刺激的拉曼组织学(SRH),一种快速的光学成像方法,以及对SRH图像的深层自动解释,用于术中脑肿瘤诊断和实时手术决策支持。在这里,我们介绍了OpenSRH,这是来自300多名脑肿瘤患者和1300多个独特全幻灯片光学图像的第一个公共数据集。 OPENSRH包含来自最常见的脑肿瘤诊断,完整的病理注释,整个幻灯片肿瘤分割,原始和加工的光学成像数据的数据,用于端到端模型的开发和验证。我们为使用弱(即患者级)诊断标签的基于补丁的整个幻灯片分类和推断提供了一个框架。最后,我们基准了两项计算机视觉任务:多类组织学脑肿瘤分类和基于斑块的对比表示学习。我们希望OpenSRH能够促进快速光学成像和基于ML的手术决策支持的临床翻译,以提高精密医学时代的癌症手术的获取,安全性和功效。数据集访问,代码和基准可在opensrh.mlins.org上找到。
translated by 谷歌翻译
持续学习(CL)旨在从依次到达的任务中学习,而无需忘记以前的任务。尽管CL算法试图在到目前为止所学的所有任务中实现更高的平均测试准确性,但学习对成功的概括和下游转移至关重要。为了衡量代表性质量,我们仅使用一个小平衡数据集对所有任务进行重新培训,从而评估平均准确性,而无需对当前任务进行任何偏见的预测。我们还测试了几个下游任务,测量了学习表示的转移学习准确性。通过测试我们在Imagenet-100和Imagenet-1000上的新形式主义,我们发现使用更多的示例记忆是在学习的表示形式中产生有意义差异的唯一选择,以及大多数基于正则化或蒸馏的CL算法,都使用了示例记忆无法在课堂学习学习中学习不断有用的表示。令人惊讶的是,具有足够记忆大小的无监督(或自制的)CL可以达到与受监督对应物相当的性能。考虑到非平凡的标签成本,我们声称找到更有效的无监督CL算法,这些算法最少使用示例性记忆将是CL研究的下一个有希望的方向。
translated by 谷歌翻译
We study the problem of synthesizing immersive 3D indoor scenes from one or more images. Our aim is to generate high-resolution images and videos from novel viewpoints, including viewpoints that extrapolate far beyond the input images while maintaining 3D consistency. Existing approaches are highly complex, with many separately trained stages and components. We propose a simple alternative: an image-to-image GAN that maps directly from reprojections of incomplete point clouds to full high-resolution RGB-D images. On the Matterport3D and RealEstate10K datasets, our approach significantly outperforms prior work when evaluated by humans, as well as on FID scores. Further, we show that our model is useful for generative data augmentation. A vision-and-language navigation (VLN) agent trained with trajectories spatially-perturbed by our model improves success rate by up to 1.5% over a state of the art baseline on the R2R benchmark. Our code will be made available to facilitate generative data augmentation and applications to downstream robotics and embodied AI tasks.
translated by 谷歌翻译
远远超出了学习自然语言的远程相互作用,变形金刚正成为许多愿景任务的遗弃标准,具有其力量和爬钢丝。特别是在图像和文本之间的跨模型任务中,向量量化变化自动码器(VQ-VAE)被广泛用于使原始RGB图像成为一系列特征向量。为了更好地利用图像和文本之间的相关性,我们提出了一种新颖的架构,该架构包括用于文本到图像和图像到文本的特征增强的变形Autiachoder(Augvae)和双向自动回归变压器(Biart)一代。我们的Augvae在ImageNet1K验证集上显示了最先进的重建性能,以及野外未经看出图像的鲁棒性。与其他模型不同,BIART可以将图像(或文本)区分为条件参考和生成目标。 L-VERSE可以直接用于图像到文本或文本到图像生成任务,而无需任何FineTuning或额外的对象检测框架。在定量和定性实验中,L-VESERS在MS-Coco字幕上的图像到文本和文本到图像生成中,对先前的方法进行了令人印象深刻的结果。我们还评估了L-Verse架构对概念标题的可扩展性,并呈现了一般域的双向视觉语言表示学习的初始结果。代码可用:https://github.com/tgisaturday/l-verse
translated by 谷歌翻译